7Д 


УДК 004.62 


Г.В. Дорохина 

Институт проблем искусственного интеллекта МОН Украины и НАН Украины 
г. Донецк, Украина 

з2у(@ла1.допе5К.ла 


Сравнение затрат памяти для метода деревьев 
цифрового поиска и его усовершенствования 


В статье выполнен сравнительный анализ затрат памяти для организации поиска строковых величин 
методом деревьев цифрового поиска и его усовершенствования. Разработана методика теоретической 
оценки затрат памяти для обоих методов. Выполнено сравнение реальных данных с расчетными 
оценками при заданном количестве узлов древовидной структуры. 


Введение 


Одну из наиболее высоких скоростей поиска обеспечивают деревья цифрового 
поиска (ЦП). Данный метод используется редко ввиду больших затрат памяти, т.к. 
он предполагает хранение древовидной структуры и самих данных в специально 
выделенной области памяти. В связи с этим актуальным является анализ способов 
организации данных, позволяющих выполнять поиск данных с той же скоростью, 
что и деревья ЦП, и сократить затраты памяти по сравнению с этим методом. 

В работе [1] предложено усовершенствование метода деревьев ЦП, обеспечи- 
вающее хранение строковых величин в древовидной структуре и скоростной поиск 
данных в ней. Оно характеризуется такой же скоростью поиска данных, как у метода 
деревьев ЦП, и за счет хранения данных в древовидной структуре может давать зна- 
чительный выигрыш в затратах памяти. 

Целью данной работы является сравнительный анализ затрат памяти при исполь- 
зовании деревьев ЦП и усовершенствованных деревьев ЦП. Поставленная цель мо- 
жет быть достигнута путём решения следующих задач: формальное описание затрат 
памяти на хранение данных и деревьев ЦП; формальное описание затрат памяти на 
хранение данных методом усовершенствованных деревьев ЦП; сравнительный ана- 
лиз затрат памяти. 


Затраты памяти при поиске строковых величин 
методом деревьев цифрового поиска 


Как отмечено ранее, метод деревьев ЦП предполагает хранение данных, а также 
древовидной структуры, обеспечивающей их скоростной поиск. Рассмотрим задачу 
использования деревьев цифрового поиска для задачи поиска элементов словаря 
строк — множества строк без повторений. Для хранения самих данных можем исполь- 
зовать массив строк фиксированной длины или строк переменной длины. 

Пусть максимальная длина строки в словаре равна й, а словарь содержит 2 
строк. При его хранении с помощью строк фиксированной длины необходимо 


Р(6)=@+1.2: 5 (1) 


байт. Здесь 5с — количество байт, отводимых под хранение одного символа. 
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Затраты памяти массива строк переменной длины для хранения того же словаря 
при известных величинах 2; — количество в словаре С строк длины 1 вычислим со- 
гласно: 


й 
Р(б)=»`'2,.(2+4+к.50). (2) 
К=1 
При этом 2 байта отводится для хранения реальной длины строки, а 4 байта — для 
указания ссылки на строку. 
Быстрый поиск данных методом деревьев ЦП обеспечивает древовидная струк- 


й 
тура. От содержимого словаря зависит у = У», — количество узлов в ней. Здесь у; — 
1=1 
количество в древовидной структуре узлов высоты 1. Определим границы данной 
величины, исходя из данных: 1 — размер алфавита символов, составляющих строки 
словаря; 2 — количество строк в словаре С; 2; — количество в словаре С строк длины 1; 
[= [102,2] — целая часть от 105;2. 


И 
Сл 
зир(»,) = р [ры (3) 
1= 
: У 
шк, ) = тах! 2,, Ба (4) 


у. у. 
Здесь мы — операция округления вверх результатов деления —*". 
1 1 


Исходя из верхней, нижней границ у; и вышевведенного значения /[, величина у 
удовлетворяет: 


1ЕЙ 1 Д 
К) = УК, , зар) =У + >. 1-1).2,. (5) 
= 1=1 РЕГ 

Здесь / = [109,2]. 

Каждый из множества узлов О дерева цифрового поиска может быть описан 
вектором о;= (ой, ор, оз), где ол — символ алфавита; ор — целое число, ор = 0 для узла, 
в котором не оканчивается ни одна строка, и орЕ[1; 2] для узла, в котором окан- 
чивается строка с номером ор в словаре С; оз — множество номеров узлов, дочерних 
по отношению к /-му узлу. 

Объем памяти, необходимый для хранения узлов высоты 1 представим в виде 
суммы объема памяти, необходимого для хранения элементов ол, ор этих узлов, и 


где / принадлежит 


суммарного объема памяти, необходимого для хранения | р 


1 
множеству узлов высоты 1. Причем 


(о = И (6) 
И 


Обозначив количество байт, отводимое для хранения целого числа, через 51, полу- 
чим выражение для оценки затрат памяти для хранения множества узлов высоты #. 
у; (5+ 5с) + ут: 51. (7) 
Тогда затраты памяти для хранения всех узлов дерева ЦП: 
Д 
Р(О)= У (» - (9+ 5) +590. 


1=0 
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Разбив эту сумму на две, получим 
й й й й 
Р(О) = (5+5). Ул + 5 Уи = (56+ 5)» + 51. 
1=0 1=0 1=0 1=0 


Для любого непустого словаря у, = 1, а у,-, = 0. Перепишем выражения 


й й 
Уи нх и, 
1=0 1=1 

р-1 р 


й й 
ум. и+0- м, 
1=0 11 1=1 1=1 


Получим 
й 
Р(О)=5с+51+(5с+2.5.У`ъ,. (8) 


1=1 
Подставив в (8) выражения (3) и (4), получим оценку затрат памяти для хране- 
ния дерева ЦИ: 


зир(Р(О)) = дея (вена. [и + и] (9) 


151 1=1+1 


Д 
: : | р. 
шКР(О)) = 5с + 51 бонд лш, "5 (10) 
г 1 
151 
где / = [105,2], где ги+1 = 0, ] [в — операция округления до большего целого числа. 
Использование деревьев ЦИ предполагает хранение древовидной структуры и 
самих данных. Поэтому совокупные затраты памяти при использовании метода де- 
ревьев ЦП Р(С,О) определяются суммой 


Р(С,О)= Р(С)+Р(О). (11) 


Затраты памяти при поиске строковых величин методом 
усовершенствованных деревьев цифрового поиска 


Усовершенствование [1] метода деревьев ЦП состоит во введении в узел древо- 
видной структуры дополнительного элемента данных — номера родительской вер- 
шины, а также в использовании ссылок (массива номеров узлов) на узлы-окончания 
строк. Это усовершенствование позволяет хранить данные в самой древовидной 
структуре. То есть, с одной стороны, увеличивается размер узла и появляется массив 
ссылок на узлы-окончания строк, с другой стороны, исчезает необходимость в хране- 
нии массива данных наряду с древовидной структурой. 

Каждый из множества узлов О’ дерева цифрового поиска может быть описан 
вектором о’=(ой, ор, ов, од), где элемент од — номер родительского узла по отно- 
шению к данному. Массив ссылок (номеров) на узлы-окончания строк обозначим 
через Х. Его размер равен количеству строк в словаре 2. Причём 

У ЕЛ НО, Ех ОЕ, 

Количество узлов в древовидной структуре, построенной по одному словарю, 
совпадает для дерева ЦП и для усовершенствованного дерева ЦИ. 

Обозначим через Р(О’', Х) затраты памяти для хранения усовершенствованного 
дерева ЦП. 

Р(О’,Х)= Р(О’) + Р(Х). (12) 
Р(Х)=2.:9 

Найдем объем памяти, необходимый для хранения множества О’. В каждый эле- 

мент о; множества О’ в сравнении с элементом о; множества О дополнительно введен 
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элемент Од, являющийся целым числом. Значит, размер каждого элемента 07 превышает 
размер о; на размер целого числа 571. По аналогии с деревом ЦП: 


Р(О = 5е+2-51+(5е+3-50.У (13) 
зир(Р(О’)) = дез. енз-80 [Уи у и] (14) 
шКР(О’)) = бе. (бен3-0 Уи +, | (15) 


Сравнение затрат памяти метода деревьев цифрового 
поиска и метода усовершенствованных деревьев 
цифрового поиска 


Проанализируем изменение затрат памяти при фиксированных размере алфави- 
та и объеме словаря, но различных значениях й. Пусть 2 = 1000000, 1 = 33. В формулах 
определения затрат памяти фигурирует величина 7;. Допустим, эта величина определя- 
ется по формуле 


БИ 
2. = Шт р = 51ЕТЬЙ 1,2, =2- Ул (16) 
Й-#+1 


что соответствует наиболее равномерному распределению величин 2:. 

Вычислим выигрыш в затратах памяти метода усовершенствованных деревьев 
ЦП по формуле 
Р(С,О0)-Р(О’,Х) 


Л Р(а,О) 
При оценке затрат памяти будем рассматривать три случая: 
— количество узлов в древовидной структуре максимально у = $ир(у); 
— количество узлов в древовидной структуре минимально у= Ку); 
— количество узлов в древовидной структуре является средним между минимальным 
шЁ У) + зир(») 
. . 

На рис. 1 отражены зависимости относительного выигрыша в затратах памяти (17) 
метода усовершенствованных деревьев ЦП от максимальной длины строки словаря 
(й по оси аргумента), количестве в словаре слов длины 1, определяемом по (16) для ми- 
нимального, максимального и среднего количества узлов. 

Приведенные данные относительно выигрыша (проигрыша) в затратах памяти 
усовершенствованного метода деревьев ЦП имеют слишком большой разброс. Это 
делает затруднительным его оценку. Кроме того, выбранное распределение длин 
строк в словаре не соответствует реальному распределению строк в словарях, эле- 
ментами которых являются слова языка. 

Приведем пример расчетных и реальных относительных затрат памяти для строк 
фиксированной и переменной длины. В качестве словарей были использованы база сло- 
воформ русского языка, содержащая 1 779 843 уникальных строк, и база начальных форм 
слов русского языка, содержащая 110 746 уникальных строк. База словоформ в отличие 
от базы начальных форм содержит большее количество уникальных строк. В то же время 
она содержит большее количество строк, начальные символы которых совпадают и отлич- 


100% . (17) 


и максимальным у = 
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ны только несколько последних символов. То есть одна и та же ветвь древовидной струк- 
туры позволяет хранить начальные символы большего количества слов. Распределение 
длин уникальных строк в этих базах приведено на рис. 2. Видим кардинальное отличие 
распределений длин слов реальных словарей от равномерного распределения (16), ко- 
торое мы использовали при подсчете затрат памяти для хранения различных представле- 
ний словарей. Поскольку рассмотренные реальные словари содержат меньше слов большей 
длины, то затраты на их хранение должны быть меньше приведенных ранее расчетных. 


Сравнение со строками фиксированной длины Сравнение со строками переменной длины 


В х 
35 Е 
Е р: Е 
2.25 : а. 
#20 > = 
„А 15 | 
ИМ м. 


== ЕЕ тичиртиЕ ЕАН 
и, 


—- Максимальное кол-во узлов = Минимальное кол-во узлов —- Максимальное кол-во узлов = Минимальное кол-во узлов 
— Среднее кол-во узлов —= Среднее кол-во узлов 


Рисунок 1 — Относительный выигрыш в затратах памяти 
метода усовершенствованных деревьев ЦП 
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Рисунок 2 — Распределение длин строк в реальных словарях: а) в базе словоформ 
русского языка; 6) в базе начальных форм слов русского языка 


Сопоставим полученные нами реальные данные выигрыша в затратах памяти раз- 
работанного метода с расчетными данными при минимальном, максимальном и сред- 
нем числе узлов в древовидной структуре (табл. 1). 

Видим, что при хранении базы словоформ — словаря большего размера с большим 
количеством строк, отличающихся друг от друга несколькими последними символами, — 
выигрыш от использования разработанного метода приближается к расчетному выигры- 
шу при минимальном количестве вершин древовидной структуры. При хранении же базы 
начальных форм оцениваемый выигрыш приближается к расчетному выигрышу при сред- 
нем количестве вершин. Отметим также, что метод усовершенствованных деревьев 
ЦП может проигрывать в затратах памяти базовому методу, если словарь строк базового 
метода хранится в виде строк переменной длины. 
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Таблица 1 — Выигрыш в затратах памяти на словарях слов русского языка 


Расчетные данные при заданном коли- 
Длина Реальные в 

Словарь а НЕЕ честве узлов древовидной структуры 

р о Мах Мш Ауе 

База фиксир. 43,10 -6,86 54.05 15,94 
словоформ перемен. 22,60 -20,57 34,55 -7,77 
База начальных | фиксир. 17,30 -4,80 54,05 18,29 
форм перемен. -4,32 -20,89 31,36 -8,50 


Заметим также, что мы оценили выигрыш разработанного метода при хранении 
словарей, состоящих из уникальных строк. В базе начальных форм общее число строк — 
111 133, а мы рассматривали словарь из 110 746 уникальных строк этой базы. По базе 
словоформ мы сформировали словарь, содержащий 1 779 843 уникальных строк, тогда 
как общее число строк в этой базе —3 167 168. 


Выводы 


В работе рассмотрена проблема оценки затрат памяти усовершенствованных де- 
ревьев ЦП. Предложена методика теоретической оценки относительного выигрыша в 
затратах памяти этого метода в сравнении с базовым при известных характеристиках 
словаря: размер алфавита символов, образующих строки словаря; максимальная длина 
строки словаря; количество в словаре строк заданной длины. Полученная методика 
позволяет определить целесообразность использования для словаря с заданными пара- 
метрами метода усовершенствованных деревьев ЦП. Сравнение реальных данных со- 
гласуется с теоретическими оценками при заданном количестве узлов древовидной 
структуры. Анализ показывает эффективность применения усовершенствованного ме- 
тода деревьев ЦП для хранения и поиска строковых величин, различающихся послед- 
ними символами. 
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Порвняння витрат пам’ят! для методу дерев цифрового пошуку та його удосконалення 

У стати! проведено порйвняльний анал!з витрат пам’ят! для органзаци пошуку рядкових величин методом 
дерев цифрового пошуку та Його удосконалення. Розроблено методику теоретично! ощнки витрат пам’ят! 
для обох метод. Порвняно реальн! дан! з ощнками, що обчислено при задашй юлькост! вузлв деревопод6но! 
структури. 


С.И. Ротокта 

Метогу Ехрепзе$ Сотрат150п Гог Фе Метод оЁ Оопа| Зеагсй Тгее апд 5 Пиргоуетеп 

ТБе рарег 15 4еусе4 ю Фе рго Мет оЁ тетогу ехрепзез Юг фе тево4 оЁ ЧНа| зеагсЬ ее ап4 Из ппргоуетлепи. 
ТБе тефод ог Феогейса| езитаНоп оЁтетогу ехрепзез оЁФезе зитасвагез 1$ ргорозе4. Сотранзоп оЁе геа1 
тетогу ехреп5ез ап4 са]си]айе4 езИтайоп$ аге таде. 
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